Resumen estadĆ­stico

Column 1

Resumen inicial

'data.frame':   740 obs. of  21 variables:
 $ ID                             : int  11 36 3 7 11 3 10 20 14 1 ...
 $ Reason.for.absence             : int  26 0 23 7 23 23 22 23 19 22 ...
 $ Month.of.absence               : int  7 7 7 7 7 7 7 7 7 7 ...
 $ Day.of.the.week                : int  3 3 4 5 5 6 6 6 2 2 ...
 $ Seasons                        : int  1 1 1 1 1 1 1 1 1 1 ...
 $ Transportation.expense         : int  289 118 179 279 289 179 361 260 155 235 ...
 $ Distance.from.Residence.to.Work: int  36 13 51 5 36 51 52 50 12 11 ...
 $ Service.time                   : int  13 18 18 14 13 18 3 11 14 14 ...
 $ Age                            : int  33 50 38 39 33 38 28 36 34 37 ...
 $ Work.load.Average.day          : num  240 240 240 240 240 ...
 $ Hit.target                     : int  97 97 97 97 97 97 97 97 97 97 ...
 $ Disciplinary.failure           : int  0 1 0 0 0 0 0 0 0 0 ...
 $ Education                      : int  1 1 1 1 1 1 1 1 1 3 ...
 $ Son                            : int  2 1 0 2 2 0 1 4 2 1 ...
 $ Social.drinker                 : int  1 1 1 1 1 1 1 1 1 0 ...
 $ Social.smoker                  : int  0 0 0 1 0 0 0 0 0 0 ...
 $ Pet                            : int  1 0 0 0 1 0 4 0 0 1 ...
 $ Weight                         : int  90 98 89 68 90 89 80 65 95 88 ...
 $ Height                         : int  172 178 170 168 172 170 172 168 196 172 ...
 $ Body.mass.index                : int  30 31 31 24 30 31 27 23 25 29 ...
 $ Absenteeism.time.in.hours      : int  4 0 2 4 2 2 8 4 40 8 ...

|| || || ||

Algunas de las variables realmente son categoricas, por ejemplo. Month.of.absence = none, jan, feb..., day of the week = monday, tuesday.... por lo que procederemos a mutarlas en factores, es decir variables categoricas con niveles.

Resumen 2

'data.frame':   740 obs. of  22 variables:
 $ ID                             : int  11 36 3 7 11 3 10 20 14 1 ...
 $ Reason.for.absence             : Factor w/ 28 levels "infectious,parasitic diseases",..: 26 1 23 8 23 23 22 23 20 22 ...
 $ Month.of.absence               : Factor w/ 13 levels "None","Jan","Feb",..: 8 8 8 8 8 8 8 8 8 8 ...
 $ Day.of.the.week                : Factor w/ 5 levels "Monday","Tuesday",..: 2 2 3 4 4 5 5 5 1 1 ...
 $ Seasons                        : Factor w/ 4 levels "summer","autumn",..: 1 1 1 1 1 1 1 1 1 1 ...
 $ Transportation.expense         : int  289 118 179 279 289 179 361 260 155 235 ...
 $ Distance.from.Residence.to.Work: int  36 13 51 5 36 51 52 50 12 11 ...
 $ Service.time                   : int  13 18 18 14 13 18 3 11 14 14 ...
 $ Age                            : int  33 50 38 39 33 38 28 36 34 37 ...
 $ Work.load.Average.day          : num  240 240 240 240 240 ...
 $ Hit.target                     : int  97 97 97 97 97 97 97 97 97 97 ...
 $ Disciplinary.failure           : Factor w/ 2 levels "0","1": 1 2 1 1 1 1 1 1 1 1 ...
 $ Education                      : Factor w/ 4 levels "highschool","graduate",..: 1 1 1 1 1 1 1 1 1 3 ...
 $ Son                            : Factor w/ 5 levels "0","1","2","3",..: 3 2 1 3 3 1 2 5 3 2 ...
 $ Social.drinker                 : Factor w/ 2 levels "No","Yes": 2 2 2 2 2 2 2 2 2 1 ...
 $ Social.smoker                  : Factor w/ 2 levels "No","Yes": 1 1 1 2 1 1 1 1 1 1 ...
 $ Pet                            : Factor w/ 6 levels "0","1","2","4",..: 2 1 1 1 2 1 4 1 1 2 ...
 $ Weight                         : int  90 98 89 68 90 89 80 65 95 88 ...
 $ Height                         : int  172 178 170 168 172 170 172 168 196 172 ...
 $ Body.mass.index                : int  30 31 31 24 30 31 27 23 25 29 ...
 $ Absenteeism.time.in.hours      : int  4 0 2 4 2 2 8 4 40 8 ...
 $ Diciplinary.failture           : Factor w/ 2 levels "No","Yes": 1 2 1 1 1 1 1 1 1 1 ...

|| || || ||

Column 2

Existen nulos?

Aplicando sum(is.na(df)) sabremos si existen nulos
[1] 0
De esta forma sabemos que no debemos de tratar los datos para rellenar celdas vacias.

Resumen estadĆ­stico

Graficos

Column 1

Grafico de correlación

Heatpoint

Explicación

De este analisis podemos identificar correlaciones considerables, por ejemplo

+body mass index vs weight 0.90

+service time vs body mass index 0.4997

+service time vs age 0.671

-Disciplinary failure vs reasons for absence -0.5450

Ć­ndice de masa corporal vs peso

Tiempo de servicio vs Ć­ndice de masa corporal

Tiempo de servicio vs Edad

Column 2

Razones de ausencia

Meses de ausencia

DĆ­as de ausencia

Temporadas

Educación

Hijos

Bebedor social

Fumador social

Bebedores y Fumadores social

Mascotas

AnƔlisis

Las cuatro primeras variables de enfermedades de ausencia cubren el 50% de las razones de ausencia. medical consultation, dental consultation, physiotherapy, isease of genitourinary system.

En cuanto a los meses con mayor ausencia, no parece haber realmente un mes mƔs notorio o explicativo. Al igual que los dƭas de la semana y las temporadas.

Con respecto a la educación, existe mÔs del 80% de ausentismo en aquellas personas que tienen una educación de bachillerato.

Tener mƔs hijos tampoco parece estar relacionado positivamente con las faltas, ya que los que no tienen hijos son los que mƔs faltan y las faltas se reducen a medida que se tienen mƔs hijos. No se sabe si este fenomeno se da debido a que existen menos peronas con 4, 3 y 2 hijos.

Por otro lado, los fumadores y bebedores.Existen 400 que no fuman y que si beben, y existen 286 que no fuman y no beben con faltas. 686 gentes que no fuman. Entonces se podría decir que no hay relación significativa entre los vicios con las faltas

No se ve relación entre gente con mascotas y faltas.

Entonces, ¿existe relación entre los bebedores y las edades? En el siguiente grÔfio se presenta este fenomeno, en el que se muestra a la gente de -33 años que si beben con 104 horas -28 años que no beben con 112 horas -34 años que si beben con 120 horas -50 años que si beben con 120 horas -58 años que no beben con 120 horas

Parece que tiene que ver mƔs con la edad que con el beber.

Edad y bebedores

PCA

Column 1

Matriz var

Matriz Cov

Matriz p-valores

PCA PCA

Datos escalados

Eigenvalores. Porcentaje de variación acumulada

        eigenvalue variance.percent cumulative.variance.percent
Dim.1  3.339799031      17.57788964                    17.57789
Dim.2  2.257412233      11.88111701                    29.45901
Dim.3  1.939456890      10.20766784                    39.66667
Dim.4  1.507988048       7.93677920                    47.60345
Dim.5  1.387733831       7.30386227                    54.90732
Dim.6  1.233863730       6.49401963                    61.40134
Dim.7  1.080867970       5.68877879                    67.09011
Dim.8  0.999907259       5.26266979                    72.35278
Dim.9  0.960207750       5.05372500                    77.40651
Dim.10 0.840156460       4.42187610                    81.82839
Dim.11 0.788760159       4.15136926                    85.97975
Dim.12 0.649089642       3.41626127                    89.39602
Dim.13 0.480783109       2.53043742                    91.92645
Dim.14 0.429404584       2.26002413                    94.18648
Dim.15 0.394885141       2.07834285                    96.26482
Dim.16 0.304715289       1.60376468                    97.86858
Dim.17 0.235723789       1.24065152                    99.10924
Dim.18 0.166573924       0.87670487                    99.98594
Dim.19 0.002671161       0.01405874                   100.00000

Eigenvalores $eig

Con estos datos se empezarƔn a construir las grafias de la columna 2.
         eigenvalue percentage of variance cumulative percentage of variance
comp 1  3.339799031            17.57788964                          17.57789
comp 2  2.257412233            11.88111701                          29.45901
comp 3  1.939456890            10.20766784                          39.66667
comp 4  1.507988048             7.93677920                          47.60345
comp 5  1.387733831             7.30386227                          54.90732
comp 6  1.233863730             6.49401963                          61.40134
comp 7  1.080867970             5.68877879                          67.09011
comp 8  0.999907259             5.26266979                          72.35278
comp 9  0.960207750             5.05372500                          77.40651
comp 10 0.840156460             4.42187610                          81.82839
comp 11 0.788760159             4.15136926                          85.97975
comp 12 0.649089642             3.41626127                          89.39602
comp 13 0.480783109             2.53043742                          91.92645
comp 14 0.429404584             2.26002413                          94.18648
comp 15 0.394885141             2.07834285                          96.26482
comp 16 0.304715289             1.60376468                          97.86858
comp 17 0.235723789             1.24065152                          99.10924
comp 18 0.166573924             0.87670487                          99.98594
comp 19 0.002671161             0.01405874                         100.00000

Como se puede ver en los datos, tenemos que con al menos 10 variables se puede explicar la variabilidad del porque la ausencia en el trabajo. En el grafico de la columna de la derecha llamada ā€œEigenvaloresā€ se aprecia visualmente estos datos.

NOTA: En sesión el doctor especifico que no se deben de usar variables categoricas, sin embargo al dejar estas de lado se esta perdiendo gran información. La función <PCA()> permite utilizar variables categoricas suplementarias.

Correlación entre variables y PCs $eig

                                      Dim.1       Dim.2       Dim.3
Reason.for.absence               0.05152773 -0.16263166 -0.70041915
Month.of.absence                 0.02071214  0.43587242  0.38791359
Day.of.the.week                 -0.07947522  0.08565262 -0.18514772
Seasons                         -0.03781712  0.22085774  0.42431418
Transportation.expense          -0.33337723  0.69155991 -0.07199080
Distance.from.Residence.to.Work  0.10709133  0.55762624 -0.55868013
Service.time                     0.78602027 -0.12784921 -0.02594746
Age                              0.69201251 -0.07304888  0.18969827
Work.load.Average.day           -0.05858029 -0.01451683  0.19751512
Hit.target                      -0.10111418 -0.36615062 -0.33025422
Disciplinary.failure             0.07010165  0.28786920  0.63002647
Education                       -0.46963529 -0.45283681  0.14146459
Son                             -0.09607051  0.48120946  0.01195857
Social.drinker                   0.54820268  0.43469542 -0.23385032
Social.smoker                   -0.14801766  0.01642031  0.18606529
Pet                             -0.36044013  0.44097241 -0.09372817
Weight                           0.83274025 -0.04035669  0.08923245
Height                           0.07050399 -0.35021789  0.24213123
Body.mass.index                  0.84291989  0.11064881 -0.01600076
                                       Dim.4       Dim.5
Reason.for.absence              -0.283323326  0.16020055
Month.of.absence                -0.563181778  0.24489252
Day.of.the.week                  0.103466541  0.43804049
Seasons                         -0.313341227  0.23018769
Transportation.expense           0.135879189 -0.17329670
Distance.from.Residence.to.Work  0.005388349  0.06518135
Service.time                     0.195911589  0.37681068
Age                              0.268694735  0.32180173
Work.load.Average.day            0.217708213 -0.11575095
Hit.target                       0.405226608 -0.15638652
Disciplinary.failure             0.240864235 -0.05652572
Education                       -0.114141716  0.11898727
Son                              0.440024792  0.08758783
Social.drinker                   0.142533676 -0.15483659
Social.smoker                    0.566057857  0.28154111
Pet                              0.016589464 -0.37412807
Weight                          -0.120133651 -0.39825746
Height                           0.109710229 -0.53133001
Body.mass.index                 -0.169798684 -0.17434590

En la columna derecha tenemos una matriz grafica y un grÔfico de barras llamado cos2 Para el caso de la matriz que nos dejan identificar en dodne se encuentra el valor con mayores pesos (negativos y positivos). Para el caso de la grÔfica, muestra la importancia de un componente principal para una observación dada (vector de variables originales).

Column 2

Eigenvalores

Matriz Correlación variables y Dim

Cos2 de las variables

Correlación de variables

La correlación entre una variable y un componente principal (PC) se utiliza como las coordenadas de la variable en el PC. La representación de las variables difiere del grÔfico de las observaciones: las observaciones estÔn representadas por sus proyecciones, pero las variables estÔn representadas por sus correlaciones (Abdi y Williams 2010).

El grÔfico también se conoce como grÔfico de correlación de variables. Muestra las relaciones entre todas las variables. Se puede interpretar de la siguiente manera:

  • Las variables correlacionadas positivamente se agrupan.
  • Las variables correlacionadas negativamente se colocan en lados opuestos del origen del grĆ”fico (cuadrantes opuestos).
  • La distancia entre las variables y el origen mide la calidad de las variables en el mapa de factores. Las variables que estĆ”n alejadas del origen estĆ”n bien representadas en el mapa de factores.

Contribuciones de las variables

Las contribuciones de las variables para explicar la variabilidad en un componente principal dado se expresan en porcentaje.

  • Las variables que estĆ”n correlacionadas con PC1 (es decir, Dim.1) y PC2 (es decir, Dim.2) son las mĆ”s importantes para explicar la variabilidad en el conjunto de datos.
  • Las variables que no se correlacionan con ningĆŗn PC o se correlacionan con las Ćŗltimas dimensiones son variables de baja contribución y podrĆ­an eliminarse para simplificar el anĆ”lisis general.
La contribución de las variables se puede extraer como se muestran en los siguientes grÔficos

Contribuciones de las variables a DIM1

Contribución de las variables a DIM2

Contribución de las variables a DIM3

Contribución de las variables a DIM4

Contribución de las variables a DIM5